经验回放:强化学习中常用的一种训练方法,把智能体过去的交互经历(状态、动作、奖励、下一状态等)存入“回放缓冲区”,训练时再随机抽取小批量样本进行学习。这样可以打破数据相关性、提高样本利用率、让训练更稳定。(在一些语境下也指其变体,如“优先经验回放”。)
/ɪkˈspɪəriəns rɪˈpleɪ/
Experience replay helps the agent learn from past mistakes.
经验回放帮助智能体从过去的错误中学习。
By sampling transitions uniformly from a replay buffer, the algorithm reduces correlation between updates and improves training stability.
通过从回放缓冲区均匀采样转移样本,该算法降低了更新之间的相关性,并提升了训练稳定性。
该短语由 experience(经验、经历) + replay(重放、回放)构成,字面意思是“把经历再放一遍”。在强化学习里,它被借用来表示:把过去的交互数据“重播”给学习算法,用于反复训练与巩固。